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matrix 
引言 路 预测 已 经 成 为 一 个 研究 热点 ， 而 链 路 预测 的 成 果 也 被 应 用 
到 各 类 任务 中 ， 如 网 络 建 模 23、 和 蛋白 质 网 络 预测 上 01、 社 交 
随 着 网 络 技术 的 不 断 发 展 ， 复 杂 网 络 的 演化 已 经 成 为 当 网 络 分 析 B-10、 标 签 分 类 01-131、 知 识 获取 049、 异 常 检 测 05-171、 
前 复杂 网 络 研究 领域 中 的 热点 问题 ,而 链 路 预测 又 是 网 络 演 推荐 系统 (1% 等。 为 了 揭示 真实 世界 的 网 络 演化 的 机 制 ， 也 


化 及 建 模 中 一 个 基本 的 计算 问题 。 网 络 中 的 链 路 预测 是 指 基 旨 出 了 各 类 型 的 网 络 建 模 方法 2020， 但 是 非常 难以 判断 何 种 


基于 和 矩阵 分 解 的 DeepWalk 链 路 预测 算法 
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摘 要: 现 有 的 链 路 预测 方法 的 数据 来 源 主 要 是 基于 邻居 、 路 径 、 和 随机 游 走 的 方法 ， 使 用 的 是 节点 相似 性 假设 或 
者 最 大 似 然 估计 ， 尚 缺少 基于 神经 网 络 的 链 路 预测 研究 。 基 于 神经 网 络 的 一 些 研 究 表明 ， 基 于 神经 网 络 的 DeepWalk 
网 络 表示 学 习 算 法 可 以 更 加 有 效 地 挖掘 到 网 络 中 的 结构 特征 ， 已 有 研究 证 明 DeepWalk $F +> AF ARE. Ast, 
提出 了 一 种 基于 短 阵 分 解 的 DeepWalk 链 路 预测 算法 (LPMF) 。 该 算法 首先 基于 矩阵 分 解 的 DeepWalk 算法 分 解 得 
到 网 络 的 表示 向 量 ; 然后 通过 余弦 相似 度 计算 每 对 节点 之 间 的 相似 度 ， 构 建 目标 网 络 的 相似 度 矩 阵 ; 最 后 利用 相似 
度 天 阵 ， 在 三 个 真实 的 引文 网 络 中 进行 链 路 预测 实验 。 实 验 结果 表明 ， 提 出 的 链 路 预测 算法 性 能 优 于 现存 的 20 余 
种 链 路 预测 算法 ， 这 充分 表明 了 LPMEF 能 够 有 效 地 挖掘 网 络 中 节点 之 间 的 结构 关联 性 ,而 且 在 实际 网 络 的 链 路 预测 
中 能 够 发 挥 出 较为 优异 的 性 能 。 
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Link prediction based on matrix factorization for Deepwalk 
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Abstract: The data sources of existing link prediction algorithms are mainly based on neighbors, paths, and random walk 
methods, the link prediction algorithms use mainly node similarity assumptions or maximum likelihood estimates. The link 
prediction based on neural network is still absent. Some research achievements based on neural network show that the 
DeepWalk algorithm based on neural network is an efficient network representation learning algorithm, which can more 
effectively learn the network structure features in the network. It has been proven that DeepWalk is equivalent to factorize 
the target matrix. Therefore, this paper presents a link prediction algorithm (LPMF) based on matrix factorization of 
DeepWalk. This algorithm based on matrix factorization uses the DeepWalk algorithm to get the network representation 
vectors. And then, the similarities between node pairs of nodes are calculated by the cosine similarity method. Based on that, 
the similarity matrix of the target network is constructed. Finally, we use the similarity matrix to conduct the link prediction 
experiments on three real-world citation networks. The experimental results show that the link prediction algorithm 
proposed in this paper is superior to the existing 20 kinds of link prediction algorithms, which fully shows that LPMF can 
effectively find the structural correlation between nodes in the network, and performs a more excellent performance in the 
actual tasks of link prediction. 
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变 关 系 被 称 为 对 未 知 的 预测 ， 而 预测 节点 
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间 未 来 可 能 7 展 经 历 了 一 个 从 节点 属性 挖掘 到 网 络 属 


四 络 结构 等 信息 预测 网 络 中 尚未 产生 连 边 的 两 个 节 ”网络 建 模 方法 能 够 反映 真实 网 络 的 生成 过 程 。 受 益 于 计算 性 
之 间 产 生 连 接 的 可 能 性 凹 。 预 测 已 经 存在 但 尚未 被 发 现 的 ”能 的 提升 和 大 规模 社交 网 络 数据 的 公开 访问 ， 链 路 预测 的 发 


性 挖 


加 的 过 程 ， 以 及 


的 连 边 被 称 为 对 未 来 的 预测 。 近 年 来 ， 大 规模 网 络 中 的 链 “从 小 规模 网 络 链 路 预测 到 大 规模 社交 网 络 链 路 预测 的 发 展 经 
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历 捕 。 但 是 ， 传 统 的 基于 箭 或 者 最 大 似 然 估计 乌 的 链 路 预测 “上下文 词 输入 到 神经 网 络 中 学 习 。 基 于 神经 网 络 的 词语 表示 
算法 具有 很 大 的 计算 复杂 度 和 不 精准 度 P9。 而 且 ， 目 前 尚 缺 ”学 习 在 语言 模型 中 取得 了 巨大 的 成 功 。 随 后 在 网 络 空间 模型 
乏 适 合 于 大 规模 数据 集 的 高 效 链 路 预测 算法 以 及 对 于 大 规模 。 中 ， 基 于 word2vec 算法 ，DeepWalk2 7 网 络 表 示 学 习 算 法 被 
真实 数据 在 应 用 层面 的 深入 分 析 和 研究 。 这 两 方面 的 研究 有 是 出 。 该 算法 使 用 了 随机 游 走 的 过 程 获取 当前 节点 的 上 下 文 

a 


O 

助 于 揭示 链 路 预测 这 个 问题 本 身 存在 的 优势 与 局 限 性 。 节点 ， 然 后 将 当前 节点 和 它 的 上 下 文 节点 输入 到 神经 网 络 模 

Google 提出 的 word2vec52529 是 基于 三 层 神 经 网 络 概率 ”型 中 进行 学 习 ， 最 终 获得 每 个 节点 在 网 络 空 间 模型 中 的 低 纬 
模型 的 一 种 词语 表示 学 习 算 法 。 该 算法 基于 大 规模 语言 语 料 ， 的 、 稠 密 的 向 量 表示 形式 。 网 络 表 示 学 习 算法 其 实质 是 将 网 
使 用 神经 网 络 算法 获得 每 个 词语 在 语言 空间 中 低 纬 地 、 笛 密 。 络 特征 转换 为 便于 处 理 的 向 量 形 式 。 将 获得 的 向 量 可 用 可 视 
地 向 量 表示 形式 。 使 用 固定 的 窗口 大 小 ， 获 取 当 前 词语 在 窗 化 的 方法 展示 在 2 维 的 平面 上 ， 展 现 具 有 相似 属性 的 节点 所 
口内 相 邻 的 词语 作为 它 的 上 下 文 词语 ， 然 后 将 当前 词 和 它 的 有 的 聚 类 现象 ， 如 图 1 所 示 。 
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图 1 网 络 表 示 学 习 可 视 化 示例 
Fig. 1 Visualization case of network representation learning 
DeepWalk 网 络 表 示 学 习 是 基于 神经 网 络 的 算法 , 通过 对 分 解 方法 对 目标 矩阵 M 进行 分 解 即 可 。 该 方法 能 延续 
网 络 的 结构 的 深入 学 习 ， 使 得 具有 相似 网 络 结构 的 节点 具有 DeepWalk 的 优点 , 同时 也 满足 了 从 邻接 矩阵 直接 转换 为 网 络 
相似 的 网 络 表 示 向 量 。 使 用 DeepWalk 网 络 表 示 学 习 方法 不 表示 形式 的 需求 。 
仅 可 以 帮助 人 们 更 好 地 理解 网 络 中 节点 间 的 结构 关联 性 ， 还 综 上 ， 本 文 的 主要 贡献 有 如 下 两 点 : a) 将 基于 和 矩阵 分 解 
可 以 进一步 缓解 由 于 网 络 稀 玻 性 所 造成 的 训练 数据 不 足 问 的 DeepWalk 网 络 表示 学 习 引 入 到 网 络 的 链 路 预测 ， 即 使 用 
题 。 因 为 DeepWalk 采用 的 是 局 部 随机 游 走 ， 在 大 规模 网 络 。 简单 的 矩阵 分 解 也 可 以 达到 与 神经 网 络 算法 几乎 等 同 的 预测 
结构 挖掘 中 , DeepWalk 算法 具有 更 高 效 的 特点 。 随 后 清华 大  ” 能 力 ; b) 本 文 基于 三 个 真实 的 引文 网 络 数据 集 进行 了 链 路 预 
“AIK Yang 等 人 中 从 数学 角度 证 明了 证 DeepWalk 方 法 等 同 于 测 、 可 视 化 、 案 例 研究 实验 。 实 验 结果 表明 ， 本 文 引 入 的 方 
分 解 一 个 目标 矩阵 M ,但 没有 进行 实验 验证 两 种 表示 学 习 方 法 可 有 效 地 学 习 到 网 络 的 结构 特征 ， 使 得 网 络 具 有 更 好 的 预 


法 之 间 的 差异 。 由 于 采用 不 同 的 矩阵 分 解 算 法 可 得 到 不 同 的 ” ” 测 功 能 。 

网 络 表示 学 习 结 果 。 因 此 ，DeepWalk 算法 和 分 解 矩 阵 M 都 1 ”相关 工作 

能 获得 网 络 的 表示 特征 。 这 两 者 之 间 的 区 别 是 DeepWalk 使 

用 随机 游 走 策略 避免 直接 计算 和 分 解 矩 阵 M , 能够 适用 于 大 对 于 链 路 预测 问题 ， 目 前 ， 常 用 的 方法 是 基于 节点 相似 
规模 的 网 络 表 征 学 习 。 分 解 一 个 目标 矩阵 M 具有 较 高 的 时 间 性 的 链 路 预测 算法 。 该 类 方法 主要 有 局 部 信息 的 相似 性 指标 、 
复杂 度 ， 且 算法 精度 受 限 于 分 解 算法 的 效率 。 基于 路 径 的 相似 性 指标 和 基于 随机 游 走 的 相似 性 指标 三 种 指 


本 文 基于 DeepWalk 等 同 于 和 矩 阵 分 解 的 研究 工作 ,提出 Po 
了 一 种 基于 矩阵 分 解 的 链 路 预测 算法 。 该 方法 首次 将 基于 矩 基于 局 部 信息 的 相似 性 指标 包括 基于 共同 邻居 的 相似 
阵 分 解 的 DeepWalk 表示 学 习 方法 引入 到 网 络 的 链 路 预测 过 ”性 指标 CCN) BA, AA 指标 (Adamic-AdanDB3 和 资源 分 配 指标 
程 中 ， 验 证 了 类 神经 网 络 的 方法 可 更 有 效 地 挖掘 网 络 中 的 结  RA (resource allocation) D4, CN 指标 是 最 简单 的 基于 节点 
构 关联 性 ， 训 练 得 到 的 网 络 表示 在 链 路 预测 实证 中 也 能 发 挥 局 部 信息 的 相似 性 。 其 定义 为 : 若 两 个 节点 拥有 很 多 的 共同 
较为 出 色 的 表现 。 不 同 于 传统 的 在 链 路 预测 中 使 用 的 全 局 随 ” 邻居 ， 那 么 这 两 个 节点 相似 。 共 同 邻 居 数 越 多 ， 则 它们 的 相 
机 游 走 中 、 有 重启 的 随机 游 走 SY、 局 部 随机 游 走 中 算法 ， 以 性 就 越 高 。 在 共同 邻居 的 基础 上 ， 从 不 同 角 度 考 虑 节点 度 
DeepWalk 算法 不 仅 使 用 了 局 部 随机 游 走 获得 了 节点 的 上 下 ”对 其 影响 ， 可 细 分 为 6 种 相似 性 指标 ， 分 别 为 余弦 相似 性 指 
文 节点 ， 而 且 把 当前 节点 和 上 下 文 节点 一 起 输入 到 神经 网 络 PR (Salton 指标 ) B5 Jaccard 指标 B9、Sorenson PAARO, K 
中 进行 训练 ， 彻 底 并 深入 地 挖掘 出 了 网 络 的 结构 特征 ， 反 映 ERRAN PD PU KERANA ER (HDI) IS 
出 了 节点 之 间 的 结构 相似 性 。 因 为 Yang 等 人 RR 引证 明了 以 及 LHN-I JAHRO. 基于 共同 邻居 的 相似 性 指标 的 优势 在 于 
DeepWalk SEF] FIERES IEEE M ， 因 此 ， 本 文中 使 用 的 基 其 计算 复杂 度 较 低 ， 适 合 于 大 规模 的 网 络 应 用 ， 但 是 由 于 使 
于 和 矩阵 分 解 的 DeepWalk 表示 学 习 算 法 可 避免 网 络 中 随机 游 ”用 的 信息 有 限 ， 导 致 其 算法 预测 出 的 精确 度 受 到 限制 。 
走 和 进行 神经 网 络 学 习 和 训练 的 过 程 ， 而 是 采用 高 效 地 矩阵 基于 路 径 的 相似 性 指标 分 别 是 局 部 路 径 相似 性 指标 
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(LP), Katz 指标 co 和 ILHII 指标 中 。LHI-II 指标 中 若 两 个 节 


点 所 连接 的 节 


点 之 间 相似 ， 则 这 两 个 节点 也 相似 ， 即 使 它们 


之 间 没 有 共同 


的 邻居 节点 。 该 方法 在 建立 训练 集 的 时 候 往 往 
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的 标签 属性 ， 因 此 ， 对 于 未 标注 的 网 络 其 扩展 
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于 考虑 了 网 
可 采用 矩阵 


的 路 径 的 长 度 n 的 增长 ， 路 径 指标 的 计算 复杂 度 也 越 来 越 
LP 算法 的 路 径 长 度 趋向 于 无 穷 大 时 ， 可 认为 LP 算法 相 


于 路 径 的 相似 度 指标 随 着 网 络 规模 的 增 大 和 考 


络 全 部 路 径 的 Kata 算法 。 此 时 LP 算法 的 计算 
求 逆 的 方式 得 到 有 效 的 降低 。Kata 算法 考虑 的 
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电 , 但 是 由 于 高 阶 的 路 径 对 相似 度 的 贡献 很 小 ， 
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此 也 是 采用 
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基于 随机 游 走 的 相似 性 指标 包 
(ACT), RIZA 


KA EMR 


节点 的 平均 通勤 时 间 越 小 ， 那 么 两 个 节点 越 靠 近 。 
就 是 一 个 随机 粒子 从 一 个 节点 到 达 另 外 一 个 节点 


始 节 点 的 平均 
向 量 之 间 的 不 


和 矩阵 求 北 的 方法 获得 相似 度 。 关 于 和 矩阵 求 逆 一 
矩阵 求 逆 的 快速 算法 。 


括 平 均 通勤 时 间 
以 性 指标 (Cos+)f0、 局 部 随机 游 走 ILRW)L21 
的 随机 游 走 指标 (SRW)[421。ACT 算法 认为 两 个 
通勤 时 间 
返回 到 起 
步 数 。Cos+ 采 用 了 玛 氏 距离 来 衡量 两 个 节点 的 
相似 度 。 因为 ACT 是 一 种 全 局 随机 游 走 , 而 且 


络 节点 
链 路 
LPMF 


预测 中 ， 并 通过 计算 其 AUC 指标 ， 
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的 相似 度 和 矩阵 。 最 后 ， 将 相似 度 和 矩阵 应 / 


算法 的 可 行 性 和 有 效 性 。 在 详细 的 解释 本 


te 


HJ,» Al 
证 明了 
法 也 是 


先 详细 介绍 了 基于 矩阵 分 解 的 DeepWalk 
DeepWalk 算法 就 是 矩阵 分 解 一 个 


2.1 


系 ， 上 


本 文 所 提出 的 方法 的 基础 。 


HFEA DeepWalk 算法 
SGNS 主要 应 用 于 语义 网 络 中 ， 词 语 之 间 只 


进行 收 
初始 状 
着 〈 词 
的 向 量 
语 之 间 

受 
故 了 部 
络 中 ， 
MHE 
中 ， 改 


下 文 用 窗口 确定 。SGNS 就 是 将 (词语 ， 
集 , 之 后 输入 到 一 个 三 层 的 浅 层 神经 网 络 


12 
进而 验证 所 提出 


= 


了 网 络 的 


文 的 方法 之 
Tik, VEY 


标 和 矩阵 M ， 该 方 


有 上 下 文 关 
上 下 文 ) 对 
Ph 进行 训练 。 


态 时 ， 给 每 个 词语 定义 一 个 任意 的 向 量 表 
语 ， 上 下 文 ) 在 神经 网 络 中 的 重 现 ， 不 断 
表示 。SGNS 算法 能 够 充分 的 利用 上 下 文 
的 语义 关联 。 
到 SGNS 算法 的 启发 ，DeepWalk 算法 对 
分 的 修改 ， 使 得 算法 从 语义 网 络 迁 移 到 各 
比如 社交 网 络 等 。 这 种 泛 化 使 得 表示 学 习 


示 ， 然 后 随 
的 调整 词语 
信息 训练 词 


SGNS 算法 
种 普通 的 网 
算法 能 够 被 


各 种 网 络 中 ， 从 而 得 到 更 普遍 的 应 用 。 在 


变 的 仅仅 是 上 下 文 的 获取 方式 ，SGNS X 


全 局 随机 游 走 


往往 有 很 高 的 计算 复杂 度 ， 很 难 应 用 于 大 规模 


虑 了 有 限 步 数 
多 。 在 LRW 


的 网 络 中 , 因此 刘伟平 等 9 等 提出 了 局 部 随机 游 走 , LRW 考 


内 的 随机 游 走 ， 因 此 算法 的 计算 复杂 度 要 低 很 
的 基础 上 ， 将 前 面 的 结果 与 最 后 一 步 的 结果 相 


加 就 得 到 了 SRW。SRW 给 邻接 的 节点 给 予 了 更 多 的 机 会 与 


EFX 
点 ) 对 


获取 上 下 文 ， 而 DeepWalk 采用 的 是 随机 游 走 的 方式 获取 


， 其 他 的 都 未 改变 。 同 样 使 用 (当前 节点 
输入 到 一 个 三 层 的 浅 层 神 经 网 络 中 。 


DeepWalk 
滑动 的 窗 


» ETW 


即 DeepWalk 和 


SGNS 改变 的 仅仅 是 上 层 的 输入 ， 底 层 的 算法 都 未 曾 改变 。 


随后 ,Levy 等 人 5 证 明了 SGNS 词 向 量 表示 


学 习 算 法 就 


目标 节点 相连 接 。 因 此 ，SRW 是 一 种 充分 考虑 了 真实 网 络 特 是 矩阵 分 解 一 个 SPPMI 矩阵， 简称 为 M EE, EEM 的 表 
征 的 算法 。 达 式 为 
当然 ， 还 有 一 些 其 他 类 型 的 基于 节点 相似 性 的 链 路 预测 Rise 
算法 ， 比 如 基于 图 理论 的 矩阵 森林 指数 MFD S, AA Mi =le NG) E". (1) 
似 性 指数 CTSCN) M41, FARI HORUS ER (PA) 51, DA 
基于 朴素 贝 叶 斯 模型 的 指标 (NBAA, LNBCN, LNBRA) 其 中 :nn 为 每 个 (词语 ， 上 下 文 ) 对 的 负 采 样 个 数 。 表示 整 
4 等 。 传 统 的 基于 共同 邻居 的 指标 算法 不 会 考虑 共同 邻居 的 “个 训练 集中 函数 的 词语 数量 。 NO) 表示 词语 v 在 整个 训练 集 
权重 信息 。 然 而 不 同 的 邻居 对 整个 网 络 的 影响 力 是 不 一 样 的 ， 
FA iH EW et , N 不 司 语 C 在 个 练 集 
因此 ， 刘 震 等 人 引入 了 一 个 角色 权重 函数 ， 用 于 计算 不 同 邻 。 ”出现 的 次 数 ， NCO) 表示 上 下 文 词语 < 在 整个 训练 集 D 
居 的 影响 力 大 小 的 。 并 将 角色 函数 引入 到 AA、CN、RA 中 ， ”中 出 现 的 次 数 ， ww.o 表示 词语， 上下文) 对 在 整个 训练 
提出 了 基于 朴素 贝 叶 斯 模型 的 算法 。 集中 出 现 的 次 数 。 
自从 Moore 和 Newman 在 2008 年 发 表 的 《自然 》 论 文 41， 受到 SGNS 算法 的 启发 , Yang 等 人 RP? 中 从 数学 角度 证 明了 
以 及 Redner 在 《自然 上 的 评论 文章 09。 链 路 预测 就 一 直 DeepWalk 算法 类 似 于 分 解 SGNS 的 特征 矩阵 , 即 矩 阵 分 解 一 
是 复杂 网 络 研究 的 重点 ， 也 取得 了 很 多 的 成 功 。 以 上 的 链 路 。 ”个 目标 矩阵 MM， 和 矩阵 M 的 表达 式 为 
预测 算法 均 是 采用 统计 方法 获得 节点 之 间 的 相似 度 值 ， 其 中 Se 
的 一 些 算法 均 表现 出 了 优异 的 性 能 。 而 目前 ， 一 些 基于 神经 1 8 NU) ， 
网 络 的 算法 可 以 更 加 高 效 的 获得 网 络 的 特征 向 量 ， 基 于 该 特 a —— 
征 向 量 也 可 以 进行 各 类 机 器 学 习 任务 ， 比 如 链 路 预测 等 站 
DeepWalk 首先 将 该 思路 引入 到 了 网 络 链 路 预测 任务 中 , 并 在 。 ”前 节点 的 上 下 文 节点 。 上 下 文 节点 通过 随机 游 走 获取 。 对 于 
公开 的 真实 数据 集 上 表现 出 了 优异 的 预测 性 能 。 本 文通 过 引 ”网 络 G= ,局 ，V 为 网 络 G 的 顶点 集 ，E 为 网 络 G 的 边 集 。 
入 DeepWalk 的 实质 为 分 解 网 络 特征 矩阵 的 依据 ， 首 次 验证 ”此 时 设 为 随机 游 走 序列 中 生成 的 (当前 节点 ， 上下文 节 点 ) 
了 基于 矩阵 分 解 的 DeepWalk 链 路 预测 算法 的 可 行 性 。 当 然 ， 的 集合 ， 其 中 的 每 个 实体 均 为 一 个 上 下 文 节点 对 (0 。 
网 络 表示 学 习 有 很 多 , 例如 , TADW!!, MMDW559 和 NEUS1 假设 随机 游 走 的 步 长 为 ! ， 那 么 在 集合 中， 节点 被 
等 ， 这 些 网 络 表示 算法 的 性 能 均 比 DeepWalk 优异 ， 但 本 文 本 、 
E one al ff y 2t 次 。 因 为 WCwJ/| 刀 | 表示 节点 在 随机 ; 
的 研究 目标 在 于 研究 采用 年 阵 分 解 方法 达到 和 神经 网 络 同样 。 访问 的 次 数 为 20 次 EA NOV |D | REH A v ERED 
4 链 路 预测 性 能 ， 并 非 对 基于 神经 网 络 的 网 络 表示 算法 进行 | 
A i 并 非 对 基于 神经 网 络 的 网 络 表 示 算法 进行 。 走 过 程 中 出 现 的 次 数 ， 该 值 从 好 和 节点 w 的 PageRank 的 值 
2 AMA 相等 。 Bh, ANO) NO) 表示 在 节点 TEA v A 
本 文 基于 矩阵 分 解 的 DeepWalk 方法 ， 获 得 网 络 中 的 每 在 随机 游 走 步 长 为 以 内 出 现 的 次 数 。 本 文 定义 PageRank 


个 节点 向 量 表 


示 ， 人 然后 使 用 余弦 相似 度 计算 方法 构建 出 了 网 


的 转移 和 矩阵 为 4 ， 


将 节点 i 的 度 记 为 4:， 于 是 就 有 


201812.00118v1 


chinaXiv 


1/d, (i ek 
| (3) 


0 otherwise ° 


令 。 表 示 一 个 |V | MET, RABI 列 元 素 为 1， 其 


余 全 为 0。 假 设 从 节点 i 开始 游 走 ， 并 用 6 来 表示 初始 状态 
则 eA 为 节点 i 相对 于 所 有 节点 的 一 个 空间 分 布 ，6@A 中 的 第 
J 个 实体 值 表示 游 走 粒子 从 节点 i 游 走 到 节点 j 的 概率 大 


小 。 依 此 类 推 ，e4 中 的 第 j 个 实体 值 表示 游 走 粒 子 在 1 之 
AW mi wea j 的 概率 大 小 。 以 此 可 以 得 到 
[e (A+A +A l) FEW v AA, A E a 
机 游 走 步 长 为 :以 内 出 现 的 次 数 。 综 上 可 以 计算 出 : 
NO, v,) [&(A+A? +A +A] 
Nw) t ' 
因此 ， 
_ 2 3 t 
Mi =log([e(A+A +A +A] /Ds (5) 


(4) 


计算 出 M 的 时 间 复 杂 度 为 OdV1)， 实 际 上 ，DeepWalk 
算法 采用 随机 游 走 的 采样 方法 来 避免 准确 地 计算 矩阵 MM .而 
和 矩阵 分 解 的 方法 不 可 避免 的 要 计算 出 M 以 便于 进行 分 解 。 因 
tHe, Yang 等 人 31 权衡 了 算法 速度 与 精确 度 两 方面 , 得 到 分 解 


到 的 目标 矩阵 为 ，M =(4+42)/2， 当 网 络 是 稠密 网 络 时 ， 


甚至 直接 可 以 分 解 矩 阵 4 ， 即 M = 4 。 因 为 ， 相 比 于 7， 
M 


M x USV" 


representation = U(8")” 


图 2 LPMF 算法 框架 图 
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在 logM 和 矩阵 中 含有 更 多 的 非 零 元 素 ， 而 Yu FANGA 


了 ， 在 和 矩阵 分 解 时 ， 使 用 平方 损失 评估 函数 ， 乡 
杂 度 与 矩阵 中 含有 的 非 零 元 素 成 正比 例 关系 。 


S We 


M =(A+A’)/2, BIOR ESEE KEM o 构建 邻接 矩阵 


A 的 算法 时 间 复 杂 度 为 O0) , 如 果 使 用 SVD 分 解 该 


阵 M ， 则 分 解 部 分 的 时 间 复 杂 度 为 Oor) 。 
2.2 BTR AERA 


分 解 的 基础 之 上 , 使 用 不 同 的 分 解 方法 获得 不 同 的 


过 分 解 和 矩阵 M 而 不 是 分 解 log M 来 提高 算法 的 效率 。 因 
此 ， 本 文 的 算法 复杂 度 主要 来 自 两 部 分 ， 一 部 分 是 来 自 构建 
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分 解 的 时 间 
在 本 文中 ， 


ERE 


基于 和 矩阵 分 解 的 DeepWalk 链 路 预测 算法 是 建立 在 矩阵 


网 络 表 示 。 


给 定 一 个 网 络 的 连 边 表示 形式 ， 可 以 将 该 网 络 转换 为 网 络 的 


邻接 矩阵 形式 ， 基 于 该 邻接 和 矩阵， 可 以 生成 网 络 的 矩阵 分 解 


的 目标 矩阵 MM 。 本 文中 ， 使 用 矩阵 方法 将 目标 矩 


为 三 个 矩阵 的 相 乘 的 形式 。 关 于 和 矩阵 分 解 算法 ， 本 文中 使 用 


BA M 分 解 


的 是 SVDS 算法 ,该 算法 相对 于 SVD 算法 有 以 下 的 优势 : a) 
SVDS 是 SVD 算法 的 变 体 ， ep edb sa an 


和 矩阵， 但 是 计算 复杂 度 降 低 了 ;b) SVDS 可 以 返 
的 最 大 的 特征 值 以 及 其 特征 行 向 量 和 列 向 量 ;c) 相 


回 指定 个 数 
比 于 SVD 


算法 ，SVDS 算法 则 具有 更 强 的 可 定制 性 和 塑造 性 。 
上 的 优点 ， 本 文中 使 用 svds 算法 分 解 目标 矩阵 M 。 


架 如 图 2 所 示 。 


k 
站 
node, 
M 
node, 
node, 


Fig.2 Algorithm framework of LPMF 


如 图 2 所 示 ， 本 文中 的 框架 可 具体 分 解 为 五 个 步骤 ， 每 
个 步骤 的 任务 处 理 如 下 所 示 ; 

a) 输 入 一 个 由 边 集 组 成 的 网 络 ， 然 后 将 该 网 络 分 割 为 训 
练 集 合 测试 集 ， 将 训练 集 转换 为 邻接 矩阵 4 ， 然 后 基于 该 信 
接 和 矩阵 4 ， 求 得 该 网 络 所 需要 分 解 的 目标 矩阵 


M =(A+A’)/2. 


b) 使 用 SVDS 4) fe SIE H PERE M vuv DEJ Uva » 


SS 


式 。 


Si. , 和 Vi... xv] — AS 6 BE AY AB SE TE 


c) 根 据 将 目标 矩阵 M vuv APES = NERE Uveo Ska 


和 Vswl， 可 将 矩阵 Uppa 和 Si 相 乘 ， 得 到 网 络 中 每 个 节点 
的 网 络 表示 形式 ， 即 ， 网 络 中 每 个 节点 的 表示 组 成 的 矩阵 为 
Umax(S"iw)”， 该 年 阵 是 一 个 |V | 行 大 列 的 矩阵 表示 。 

d) 基 于 计算 所 得 的 节点 的 表示 ， 使 用 余弦 相似 度 计算 方 


本 文中 ， 基 于 真实 网 络 数据 集 的 链 路 预测 算法 的 具体 框 


基于 以 


ATIV | 列 的 节点 相似 度 和 矩阵 。 


标 ， 评 估 本 文 所 提出 方法 的 链 路 预测 性 能 


分 解 : 


Lp 全 Oper Sent Via 


法 , 计算 每 两 个 节点 之 间 的 余弦 相似 度 , 之 后 再 构建 一 个 |V | 
e) 基 于 网 络 的 节点 相似 度 矩 阵 和 测试 集 ， 使 用 AUC H 


SVDS 奇异 值 分 解 的 目标 是 用 三 个 子 矩阵 相 乘 来 表示 一 
个 复杂 的 和 矩阵。 对 于 任意 一 个 矩阵 都 可 以 使 用 SVDS 分 解 方 
YE, 即 在 本 文中 , 对 于 一 个 mxn 的 矩阵 M ,存在 如 下 的 SVDS 


其 中 :|V | 表示 网 络 中 节点 的 个 数 。 为 特征 值 的 个 数 ， 在 本 
文中 可 被 认为 是 向 量 的 长 度 大 小 。 和 矩阵 U 是 M 的 奇异 向 量 ， 
S 是 一 个 对 角 和 矩阵 ， 其 中 的 元 素 为 M 奇异 值 ，MM 的 正 交 
单位 特征 向 量 组 成 V ， 特 征 值 组 成 S$*S ，MM 的 正 交 单位 


特征 向 量 组 成 Y ， 特 征 值 组 成 SS”。svds 被 广 
数据 降 维 、 推 荐 系统 等 任务 中 。 


应 用 于 各 类 


以 上 5 个 步骤 完整 的 构成 了 本 文 算 法 的 主要 流程 。 为 了 
更 加 详细 的 展示 细节 ， 本 文中 提供 了 如 下 的 算法 伪 代 码 。 


Algorithm: LPMF (G, train-ratio, k) 


人 
UC NINAA IVA 


日 于 || 


OlFary 
录用 定稿 冶 忠 林 ， 等 : REM DARM Deep Walk 链 路 预测 算法 第 37 卷 第 2 期 
Input: 节 列 举 的 链 路 预测 算法 多 为 采用 统计 的 方法 获得 节点 之 间 的 
Network edge set: G 相似 度 值 ， 本 文 提出 的 基于 和 矩阵 分 解 的 DeepWalk 链 路 预测 
Train ratio of dataset: training-ratio 算法 采用 了 类 神经 网 络 方法 获得 了 网 络 的 结构 特征 和 矩阵， 之 
Representation length: k Ja FA FEE) AR I ETA AICHE 

Output: AUC 出 的 LPMEF 方法 仅 在 特征 获取 方面 参考 了 DeepWalk 方法 ， 
®© Get the edge set of the network G 但 是 实质 还 是 一 个 矩阵 分 解 算 法 。 因 此 ， 本 文 提出 的 LPMF 
@ Count the amount of nodes, named as |V| 方法 和 相关 工作 中 列举 的 方法 之 间 具 有 可 比 性 ,在 本 实验 中 ， 
@ Split the network G into training set and testing set: 本 文 设 置 了 训练 得 到 的 表示 向 量 的 长 度 大 小 为 100, 设置 
mt : pinni vais 训练 集 的 训练 比例 为 0.7, 0.8 和 0.9。 实 验 结 果 如 下 表 2 所 

[training set, testing set |m __ G 示 ， 

@ Initial the adjacency matrix A for training set 从 表 2 可 以 发 现 ， 利 用 LPMEF 算法 与 21 种 比较 常用 的 
© Initial the target matrix M: 链 路 预测 算法 进行 了 对 比 ， 通 过 数据 分 析 发 现 ， 在 Citeseer、 
M = (A+A2)/2 DBLP 和 Cora 数据 集 上 , 虽然 LPMF 从 结构 上 挖掘 出 了 有 效 
© Factorize the matrix M: 的 网 络 特征 , 但 是 实验 结果 表明 ， 基 于 MF 的 网 络 特征 挖掘 
[U, S, V] = svds (M, k) 更 能 体现 出 网 络 的 增长 本 质 。 本 文 提出 的 LPME 算法 和 Katz 
人 算法 性 能 几乎 相同 。Katz 是 基于 全 局 路 径 统 计 的 算法 ， 在 平 
均 路 径 长 度 较 短 的 网 络 中 性 能 突出 ，LPME 算法 能 够 在 较 长 
@_ Compute cosine similarity for each node pairs 的 平均 路 径 上 随机 游 走 获 得 更 多 的 网 络 特征 。 因 此 ， 在 
s =sim(a,b)=(a*b) / (llal| * Ibl) Citeseer 数据 集 上 ，Kata 算法 优 于 LPMF 算法 ， 在 DBLP 和 
® Build the similarity matrix S: Cora 数据 集 上 ，LPMEF 算法 性 能 优 于 Katz 算法 。 总 之 ， 本 文 
提出 的 LPMF 算法 性 能 优 于 其 余 19 种 链 路 预测 算法 ， 因 为 


sjes, Vij < |V] 


本 文 充分 的 利用 了 网 络 结构 特征 构建 网 络 表示 向 量 。 


@ Compute AUC using testing set: 表 2 citesser, dblp 和 cora 数据 集 上 链 路 预测 结果 
ae Table 2 The results of link prediction on Citeseer, DBLP and Cora 
AUC <——t raining set a - 
数据 集 Citeseer DBLP Cora 


WA 07 08 09 07 08 09 07 08 09 
CN 68.13 72.08 74.67 85.49 88.40 90.68 69.50 72.38 78.19 


3 ”实验 结果 与 分 析 


3.1 实验 设置 Salton 66.32 72.73 74.44 86.00 87.92 90.74 69.38 72.13 77.89 
本 文中 所 采用 的 实验 数据 集 均 为 真实 的 引文 网 络 数据 Jaccard 66.51 72.25 74.33 85.92 88.26 90.98 69.25 72.00 77.09 

集 ， 关 于 数据 集 的 详细 情况 如 表 1 所 示 。 本 文 所 使 用 的 三 个 HPI 66.29 72.18 74.42 85.61 88.95 90.77 69.38 72.44 77.93 
数据 集 为 Citeseer，DBLP，Cora。 三 个 数据 拥有 几乎 相同 的 HDI 66.03 72.52 74.17 85.72 88.31 90.84 69.52 72.53 76.67 
网 络 节 点 ,都 为 3000 左右 的 节点 个 数 。 但 是 边 的 个 数 不 一 致 ， LHN-I 66.47 72.93 74.46 85.80 87.87 89.95 69.19 72.16 77.30 
Citesser 和 Cora 数据 集 拥 有 几乎 相同 的 边 数量 ， 但 是 DBLP AA 66.37 72.22 74.33 86.00 88.22 90.95 69.35 72.66 77.60 
数据 集中 边 的 个 数 几 乎 是 其 他 数据 集 的 6 倍 大 小 。 另 外 ， 还 RA 66.37 72.12 74.63 86.56 88.50 90.81 69.47 72.47 77.97 
可 以 发 现 ， 在 几乎 拥有 相同 节点 数量 的 情况 下 ， 边 的 数量 越 PA 78.98 79.06 79.53 76.39 77.13 77.54 71.50 71.91 71.50 
多 ， 网 络 的 密度 越 大 ， 同 时 网 络 的 平均 度 大 小 也 越 大 。 如 果 LP 81.06 86.83 88.45 92.96 93.65 94.94 80.12 82.97 87.90 
边 数 和 节点 数 几 乎 相同 ， 则 网 络 的 密度 也 几乎 一 样 。 虽 然 ， Katz 96.89 97.98 97.19 93.45 94.18 94.83 90.89 92.14 94.44 
DBLP 和 Cora 数据 集 的 边 数 差别 很 大 , 但 是 他 们 拥有 几乎 一 LHNII 95.76 96.85 96.20 90.86 91.80 92.80 89.41 90.37 93.64 
样 的 网 络 直接 和 平均 路 径 长 度 。 根 据 网 络 的 平均 度 和 密度 ， LNBAA 66.37 72.64 74.52 86.07 88.42 91.12 69.42 72.50 78.01 
Citeseer 和 Cora 网 络 是 一 个 稀疏 网 络 ， 而 DBLP 网 络 是 一 个 LNBCN 66.70 72.27 74.25 85.60 88.47 90.80 69.50 72.19 77.79 
稠密 网 络 。 LNBRA 66.05 72.23 74.27 85.86 88.91 91.23 69.32 72.84 77.74 
表 1 数据 集 描述 ACT 75.88 75.59 73.79 79.00 80.07 80.84 74.11 73.67 74.00 

Table 1 Dataset descriptions Cos+ 88.57 89.38 88.49 91.53 93.47 95.08 90.25 90.98 93.22 

数据 集 WAMO Ai AMA 平均 度 “网 络 直径 “平局 路 径 长 度 “密度 “平局 聚 类 系数 LRW 87.21 90.13 91.25 92.75 93.35 94.09 88.48 90.58 93.63 
Citeseer 3312 4732 6 2857 8 2.02 0.001 0.080 SRW 86.34 90.05 90.47 90.50 92.25 94.06 88.40 90.50 93.62 
DBLP 3119 39516 4 21.07 17 471 0.005 0.221 MFI 96.68 98.00 97.80 95.13 96.00 97.07 93.13 94.25 95.60 
Cora 2708 5429 7 4.01 15 4.79 0.001 0.130 TSCN 84.26 85.68 86.27 91.25 91.03 92.34 88.35 90.64 92.98 
3.2 实验 结果 分 析 LPMF 87.18 90.64 94.98 93.42 94.70 95.13 89.57 92.13 93.93 


本 文 首先 采用 SVDS 和 矩阵 分 解 方法 将 M=(C4+4)/2 和 矩阵 ”3.3 分 布 可 视 化 

P ENO e a 网 络 中 最 基本 也 是 最 重要 的 参数 就 是 顶点 的 度 。 网 络 的 
分 解 为 SV ZPE. MUE 来 表示 网 络 中 每 个 节点 的 。 最 基本 的 性 质 之 一 就 是 网 络 的 度 分 布 ， 即 网 络 中 项 点 度 的 频 
向 量 表示 。 然 后 基于 余弦 相似 度 计算 方法 构建 网 络 节点 的 相 。” 率 分 布 。 网 络 的 度 分 布 与 网 络 的 拓扑 结构 密切 相关 。 因 此 ， 
似 度 矩 阵 ， 并 在 Citesser、DBLP 和 Cora 三 个 数据 集 上 做 了 可 以 根据 网 络 的 度 分 布 来 基本 确定 网 络 的 类 型 。 比 如 ， 大 多 
实验 仿真 。 为 了 验证 本 文 所 提出 的 方法 的 有 效 性 ， 使 用 了 相 。” 数 网 络 具有 无 标 度 性 ， 其 雪 律 分 布 完 全 是 由 度 分 布 指数 来 确 
关 工 作 章节 中 所 列 出 的 所 有 方法 进行 了 对 比 。 在 相关 工作 章 。 定 的 。 由 此 可 见 ， 研 究 网 络 的 度 分 布 对 人 们 更 好 地 分 析 目标 
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网 络 有 着 很 


分 布 以 及 出 现 的 次 数 。 有 具体 度 分 布 可 视 
图 3 Aras, BARRA KA, MAA 
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要 的 意义 。 关 于 数据 集 Citeseer、 DBLP 和 Cora ”节点 具有 高 度 值 。 由 此 可 知 ，Citeseer 数据 集 和 Cora 数据 得 
的 度 分 布 可 视 化 ， 本 文 使 用 MATLAB 计算 出 每 个 节点 的 度 不 是 高 稠密 的 网 络 。 


化 结 


日 


果 如 图 3 ATA. 3.4 ” 调 参 与 分 析 
E 标 表示 该 度 值 本 文 的 实验 中 需要 设置 两 个 参数 ， 分 别 是 向 量 长 度 大 和 
现 的 次 数 。 从 图 中 可 以 发 现 ，Cora 数据 集中 节点 的 最 训练 集 的 训练 比例 training ratio .设置 训练 集 比 例 主要 是 为 了 


大 度 值 小 于 170, 但 是 每 个 度 值 出 现 的 频率 


和 Citeseer 数据 集 ， 最 高 的 度 值 
DBLP 数据 集中 , 度 值 小 于 50 的 节点 
而 度 值 在 50 至 200 之 间 的 节点 具有 低频 率 出 
三 个 数据 集 
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明显 高 于 DBLP 
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mr 


分 割 出 一 部 分 测试 数据 ,方便 计算 AUC。 在 训练 阶段 ， 仅 仅 
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zm 
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LARD — iB at 


Count 


HILT 570 RK. Citesee 和 将 分 割 出 的 训练 集 部 分 转换 为 邻接 和 矩阵， 然后 再 求 得 即将 分 
率 出 现 的 现象 ，” 解 的 目标 和 矩阵。 为 了 展示 向 量 长 度 和 训练 率 对 AUC 
岗 的 现象 ,因此 ， ”本 文 做 了 参数 影响 实验 ， 具 体 的 结果 如 图 4 所 示 。 


比较 小 只 


中 ， 大 多 数 的 节点 的 度 值 


的 影响 ， 
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(a).Citeseer 数据 集 (b).DBLP 数据 集 (c).Cora 数据 集 
图 3 在 citeseer dblp 和 cora 数据 集 上 的 度 分 布 可 视 化 
Fig.3 The visualizations of degree distribution on Citeseer, DBLP and Cora 
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(a).Citeseer 数据 集 (b).DBLP 数据 集 (c).Cora 数据 集 
图 4 训练 率 和 向 量 长 度 Kk 之 间 的 关联 关系 
Fig.4 The correlations between training ratio and representation size 
如 图 4 所 示 , 本 文 设置 了 向 量 长 度 为 50、100、150、200、 AUC Z. SRE, ADAH, MIP RIS, AK REA 
300, 设置 了 训练 集 的 训练 比例 为 0.7、0.75、0.8、0.85、0.9、 ”训练 集训 练 比 例 对 AUC 的 影响 较 大 ， 但 是 对 于 稠密 网 络 ， 


0.95。 当 向 量 长 度 为 50 时，Citeseer、DBLP 和 Cora 数据 集 影响 较 小 。 
的 AUC 效果 最 差 。 当 向 量 长 度 为 300 时 ， 都 获得 了 3.5 网 络 表示 可 视 化 


上 获得 
总 体 上 


= 


au 


比较 好 的 性 能 。 因为 Citeseer 和 Cora 28 A — Siti 
络 , 所 以 当 训练 集 比 例 为 0.9 
而 DBLP 是 一 个 稠密 的 网 络 , 因此 , 对 于 人 


从 Citesser、DBLP 和 Cora 三 个 数据 集中 随机 选取 4 个 
时 , AUC 获得 了 较 好 的 性 能 。 类 别 ， 每 个 类 别 随机 选取 150 个 节点 。 然 后 使 用 TSNE 可 视 
E 何 向 量 长 度 设置 ， 化 算法 将 每 个 数据 集中 的 600 个 节点 投影 到 2 ARAYA 


ei 


Fig. 5 


图 5 网 络 表示 的 2 维 可 视 化 


2D visualizations of network representations 


随 着 训练 集 变化 , AUC 的 变化 幅度 非常 小 。 但是, 在 Citeseer ”不同 的 类 别 用 不 用 的 颜色 表示 。 投 影 后 的 2 维 可 视 化 结果 如 
和 Cora 数据 集 上 ，AUC 的 变化 幅度 大 于 DBLP 数据 集 上 的 图 5 所 示 。 
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录用 定稿 冶 忠 林 ， 等 : 基于 矩阵 分 解 的 DeepWalk 链 路 预测 算法 
MAS 可 以 发 现 ， 网 络 表示 的 2 维 可 视 化 结果 展示 出 了 Ao 
较 好 的 区 域 边界 。 因 此 ， 基 于 和 矩阵 分 解 的 网 络 表示 学 习 算 法 4 ”结束 语 
训练 得 到 的 节点 向 量具 有 明显 的 可 区 分 能 力 。 可 视 化 结果 中 ， paG 
有 相同 类 标签 的 节点 使 用 同一 种 颜色 表示 ， 然 后 使 用 降 维 本 文 首先 通过 证 明 DeepWalk 网 络 表示 学 习 算 法 ， 发 现 
算法 将 分 类 结果 投影 到 2 维 平 面 上 。 在 Citeseer、DBLP 和  DeepWalk 算法 的 实质 即 为 矩阵 分 解 。 基 于 这 个 实事 , 本 文 提 
Cora 三 个 数据 集 的 可 视 化 结果 中 ， 可 以 发 现 ， 具 有 相同 颜色 ”出 了 一 种 基于 矩阵 分 解 的 DeepWalk 路 预测 算法 LPMF。 利 
的 节点 具有 较为 明显 的 聚 类 现象 ， 投 影 在 2 维 平面 上 ， 相 似 。 用 所 提出 的 LPMF 算法 在 Citeseer、DBLP 和 Cora 三 个 真实 
节点 之 间 具 有 较 近 的 距离 。 较 为 深层 次 地 可 以 认为 ， 使 用 基 ”的 引文 网 络 中 进行 无 监督 学 习 ， 实 验 结果 表明 LPMF 算法 在 
于 矩阵 分 解 的 网 络 表示 学 习 算 法 可 以 很 好 的 学 习 和 训练 到 网 。 真实 网 络 环 境 中 的 链 路 预测 性 能 优异 ， 其 性 能 优 于 现 有 的 大 
络 的 结构 信息 ， 使 得 具有 相似 网 络 结构 的 节点 在 表示 空间 中 ”多 数 链 路 预测 算法 。 男 外 ， 网 络 表示 可 视 化 实验 得 知 了 基于 
有 更 近 的 距离 ， 相 反 ， 具 有 相差 较 大 的 网 络 结构 的 节点 在 。” 甜 阵 分 解 的 DeepWalk 算法 训练 得 到 的 节点 表示 向 量 同 样 
空间 表示 中 具有 更 远 的 距离 。 可 视 化 结果 证 实 了 本 文 所 提出 。” 有 明显 的 聚 类 现象 。 案 例 研究 实验 证 明了 训练 得 到 的 节点 的 
的 LPMF 算法 训练 得 到 的 节点 的 表示 具有 聚 类 的 功能 .因此 ， 句 量 表示 能 够 充分 地 反映 网 络 的 特征 ， 使 得 具有 相似 结构 的 
在 链 路 预测 中 ， 基 于 训练 得 到 的 网 络 表示 基于 聚 类 性 质 可 更 。 ”网络 节点 具有 更 相近 的 空间 距离 。 综 上 ， 本 文 提 出 的 LPMF 
好 的 进行 预测 ， 而 在 网 络 表 征 中 隐 含 的 聚 类 属性 也 能 辅助 担 ” 链 路 预测 算法 是 一 种 有 效 可 行 的 算法 ， 能 够 在 实际 网 络 的 链 
升 链 路 预测 的 精度 。 路 预测 中 发 挥 出 较为 出 色 的 性 能 。 在 未 来 研究 中 ， 一 方面 ， 
3.6 案例 研究 可 将 本 文 的 算法 与 云 计算 等 分 布 式 框架 相 结合 ， 满 足 超大 规 
DBLP 是 一 个 引文 网 络 数据 集 ， 本 文 将 该 数据 集中 的 论 。 模 的 链 路 预测 需求 。 男 一 方面 , 在 分 解 本 文 的 目标 矩阵 M 时 ， 


文 分 割 为 4 个 领域 , 数据 库 领域 (来自 于 SIGMOD、 SIGMOD 
REC, ICDE, VLDB, EDBT、PODS ICDT DASFAA, SSDBM, 


CIKM, VLDB 等 )、 数据 挖掘 领域 (来 自 
PKDD、PAKDD 等 )、 人 工 智 能 领域 (来 自 


于 KDD ICDM、SDM、 
于 JJCAI、AAAI、 


NIPS, ICML, ECML, ACML, IJCNN, UAI, ECAI, COLT, 


ACL, KR 等 )、 计算 视觉 领域 (来 自 
ACCV、MM、ICPR、ICIP、ICME 等 )。 在 DBLP 数据 外 


amr 


F CVPR, ICCV, ECCV, 


H 


, 


本 文通 过 随机 函数 随机 选取 一 个 目标 节点 ， 然 后 设置 该 
节点 的 文本 标题 为 “Querying Object-Oriented Databases” 
随后 通过 计算 余弦 相似 度 值 ， 得 到 与 该 标题 节点 相似 度 值 


标 


最 


高 的 5 个 邻居 节点 ， 然 后 获取 这 5 个 节点 的 标题 。 在 本 节 实 
验 中 ， 设 置 网 络 节点 表示 的 长 度 为 100， 训 练 率 为 0.9。 返 下 
5 个 最 相关 节点 标题 的 实验 结果 如 表 3 所 示 。 
表 3 案例 研究 
Table 3 Case study 
论文 标题 相似 度 类 别 标签 
1. A Powerful and Simple Database Language 0.7476 数据库 
2. A General Framework for The Optimization of 
0.7381 ”数据 库 
Object-Oriented Queries 
3. Towards an Effective Calculus for Object 0.7253 ”数据 库 
Query Languages 
4. A Functional Execution Model for Object 0.7165 HUER 
Query Languages 
5. A query Language for Multidimensional Arrays 
Design Implementation and Optimization 0.7065 ”数据 库 
Techniques 
如 表 3 所 示 ， 通 过 网 络 表 示 的 相似 度 计 算 ， 返 回 了 与 
标 标 题 最 相关 的 5 个 标题 。 另 外 ， 这 5 个 最 相关 的 标题 与 目 
标 标 题 有 很 高 的 结构 相似 性 ， 且 都 属于 数据 库 领 域 。 目 标 节 
点 的 标题 是 “Querying Object-Oriented Databases”, “it [iJ 
读 该 论文 发 现 ， 该 论文 提出 了 一 种 新 奇 的 结构 化 语言 ， 可 查 
询 面向 对 象 数据 库 。 因 此 引用 该 论文 或 者 被 该 论文 引用 的 论 
文 至 少 满足 “查询 语言 或者“ 数据库 ”中 的 一 个 条 件 。 从 表 3 
中 可 以 发 现 ， 本 文 算法 所 返回 的 5 个 最 相关 的 标题 包含 有 
“Query Languages” 或 者 “Database”。 因 此 ， 基 于 和 矩阵 分 解 的 
DeepWalk 算法 可 有 效 的 挖掘 网 络 中 的 结构 关联 性 , 使 得 学 习 
得 到 的 网 络 表 示 通 过 相似 的 网 络 结构 拥有 更 相近 的 空间 距 


AE 


可 使 / 
已 知 网 络 的 相关 特征 ， 


融合 外 部 信息 的 矩阵 分 解 算法 ， 从 而 更 加 充分 的 挖掘 
也 可 以 将 目标 网 络 的 其 他 重要 信息 融 


上 网 络 特征 中 。 其 相关 的 矩阵 分 解 算 法 有 Inductive Matrix 


Completion, Dependent Probabilistic Matrix Factorization 等 。 
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